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Resumen 


Campos-Aranda, D. E. (julio-agosto, 2016). Una aplicación 
hidrológica de la regresión lineal múltiple ponderada. 
Tecnología y Ciencias del Agua, 7(4), 161-173. 


La regresión lineal múltiple tiene dos aplicaciones 
hidrológicas básicas: (1) ampliar registros cortos con base en 
series largas cercanas, y (2) deducir ecuaciones empíricas que 
permiten estimar, en sitios de interés sin aforos, crecientes 
de diseño (Q,,). Como ambas aplicaciones se realizan en un 
contexto regional, siempre está presente la multicolinealidad 
en el primer caso, y la falta de homocedasticidad en el 
segundo. Para corregir la no uniformidad que tienen las 
varianzas de la variable dependiente (Y;) se usa una función 
de ponderado (w,) en el ajuste de mínimos cuadrados, 
lo cual conduce a la técnica de mínimos cuadrados 
ponderados (MCP). En este trabajo se exponen con detalle 
dos procedimientos para estimar las 1, óptimas. El primero 
toma en cuenta la teoría de los residuales y el error medio 
del ajuste de mínimos cuadrados ordinarios y el segundo se 
basa en los datos que son vecinos cercanos, para buscar la 
manera en que varían las varianzas de Y. Ambos métodos se 
aplican a las ecuaciones empíricas que permiten estimar el 
gasto máximo medio anual (Qma) de la Región Hidrológica 
10 (Sinaloa, México). Con base en los resultados, se concluye 
que es recomendable aplicar siempre el método de MCP, al 
obtener ecuaciones empíricas que estiman el Qma, o bien 
las Q,,, pues sus indicadores de desempeño evaluados en el 
dominio real muestran mejoría de ajuste. 


Palabras clave: homocedasticidad, mínimos cuadrados 
ordinarios, mínimos cuadrados ponderados, desviación 
absoluta media, error estándar medio, error relativo estándar 
medio, creciente media anual, Región Hidrológica 10. 


Abstract 


Campos-Aranda, D. E. (July-August, 2016). An Hydrological 
Application of Weighted Multiple Linear Regression. Water 
Technology and Sciences (in Spanish), 7(4), 161-173. 


Multiple linear regression has two basic hydrological applications: 
(1) to extend short records based on long series that are close and (2) 
to derive empirical equations to estimate flood design (Q,,) at sites of 
interest where records are not available. Since both applications are 
made in a regional context, multicollinearity is always present in the 
first case, and the lack of homoscedasticity in the second. In order 
to correct the non-uniformity with the variances of the dependent 
variable (Y) a weighting function (w.) in the least squares fit is used, 
which leads to the weighted least squares (WLS) technique. In this 
work two methods to estimate the optimal 10, are discussed in detail; 
the first one takes into account the theory of residuals and the mean 
error of setting ordinary least squares and the second one is based on 
data that are close neighbors, seeking for changes on the variances of 
Y. Both methods are applied to empirical equations that estimate the 
average annual maximum flow (Qaa) of Hydrological Region No. 10 
(Sinaloa). Based on the results it is concluded that it is advisable to 
always apply the method of WLS, to obtain empirical equations that 
estimate the Qaa or the Q,,, due to the improvement of adjustment of 
the performance indicators evaluated in the real domain. 


Keywords: Homoscedasticity, ordinary least squares, weighted 
least squares, mean absolute deviation, mean standard error, means 
standard relative error, average annual flood, Hydrological Region 
No. 10. 
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Introducción 


La regresión lineal múltiple (RLM) es una 
técnica estadística básica empleada por los 
hidrólogos para transferir información de las 
características del escurrimiento, calculadas en 
cuencas con hidrometría hacia sitios o cuencas 
donde tal información es necesaria y no existen 
aforos. Por ejemplo, la RLM se emplea para 
completar series de volumen escurrido anual 
(Y) en sitios con pocos datos, con base en varios 
registros amplios y cercanos (Xp); también se ha 
utilizado para encontrar ecuaciones empíricas 
que relacionan la creciente media anual (Qma) 
o de cierto periodo de retorno (Q,,) con las 
características físicas de las cuencas con aforos, 
por lo común el tamaño de la cuenca y ciertas 
propiedades del cauce, o tormentas de la zona 
(Pandey € Nguyen, 1999; Griffis $ Stedinger, 
2007; Salas et al., 2008; Wilks, 2011). 

Desde el inicio del siglo XXI se han comen- 
zado a notar los efectos negativos del cambio 
climático a través de observar eventos extremos, 
como tormentas, crecientes y sequías más se- 
veros y más frecuentes. Ante tal evidencia se 
han sugerido varias acciones (Campos-Aranda, 
2015), una de ellas, quizá la más importante, sea 
aumentar los sitios de registro de lluvias, gastos 
y niveles en lagos, embalses y acuíferos. Sin 
embargo, la realidad demuestra que el número 
de estaciones pluviográficas, pluviométricas 
e hidrométricas ha disminuido notablemente, 
hasta llegar a una situación crítica, como lo han 
destacado Lafragua-Contreras, González-Rojas 
y Solís-Alvarado (2006). En este escenario, es 
prioritario hacer un uso eficiente de la infor- 
mación hidrológica disponible y la RLM es la 
técnica estadística que lo permite, al trabajar 
los datos regionalmente tanto en el transporte 
de datos como en la estimación de ecuaciones 
empíricas. 

Los parámetros de ajuste de un modelo de- 
finido por una RLM se estiman a través del mé- 
todo o técnica de mínimos cuadrados ordinarios 
(MCO), la cual acepta o asume que las varianzas 
de la variable dependiente (Y) son las mismas 
para toda 1, lo cual se conoce como condición 


de homocedasticidad. Lo anterior implica que 
todas las observaciones de Y sean “igualmente 
confiables”. En cualquier aplicación hidrológica 
regional de la RLM, tal condición seguramente 
será violada debido a que la confiabilidad en 
la estimación de las características del escurri- 
miento depende de la amplitud de su registro, 
O bien de las condiciones de medición en las 
estaciones de aforos. Cuando la hipótesis de ho- 
mocedasticidad no es satisfecha, los parámetros 
estimados no tienen varianza mínima y todas 
las estimaciones asociadas con la RLM no son 
exactas (Tasker, 1980; Stedinger 6: Tasker, 1985; 
Tasker € Stedinger, 1989; Pandey é: Nguyen, 
1999; Kottegoda éz Rosso, 2008). 

Como las varianzas de la variable depen- 
diente o(Y) no son iguales, se puede aplicar 
una función de ponderado (w,) que corrija tal 
variación, según se expone en la teoría del mé- 
todo de mínimos cuadrados ponderados (MCP). 
Tal función es óptima cuando 1, = 1/0AY). 

El objetivo de este trabajo consiste en exponer 
con detalle dos procedimientos para encontrar 
y aplicar la función de ponderado óptima. El 
primero utiliza el algoritmo desarrollado por 
Tasker (1980), que toma en cuenta la teoría de 
los residuales y los resultados del método de 
MCO. El segundo se basa en una propiedad de 
los valores cercanos del regresor (X1), que son 
considerados puntos de repetición. Ambos pro- 
cedimientos se aplican en la obtención de dos 
ecuaciones de regresión potencial, que permiten 
estimar el gasto máximo medio anual (Qma) de 
la Región Hidrológica 10 (Sinaloa, México). Co- 
mo los resultados del método de MCP mejoran 
el ajuste de MCO, según indicadores evaluados 
en el dominio real, se recomienda su aplicación 
sistemática al estimar ecuaciones empíricas por 
RLM. 


Resumen de la teoría operativa 
Regresión lineal múltiple (RLM) 
Algunas veces se puede establecer una relación 


de tipo lineal entre la variable dependiente 
(Y) y varias (p) independientes X1, X2..., Xp o 
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regresores, la cual es la generalización o exten- 
sión natural de la regresión lineal simple. Su 
expresión es (Ryan, 1998): 


Y=B, + P,X1+B,X2 + P,X3+--+P,Xp+8 (1) 


Entonces, los principios que rigen la regre- 
sión lineal se aplican a la RLM, por ejemplo, que 
tanto Y como las Xp estén normalmente distri- 
buidas, y que los errores e sean independientes 
y tengan distribución normal de media cero y 
misma varianza (0?) para cada X. La solución 
de mínimos cuadrados de los residuos de forma 
matricial para el caso general expuesto y con n 
observaciones o datos de Y, y de los regresores 
es la siguiente (Ryan, 1998): 


Y =X-PB+e (2) 

siendo: 

Y, | 

Y, 1 XL X2, Xp, 
Y=l Y, | x= 1 X1, X2, Xp, 

1 Xx1, X2, Xp, 

pa 

B, 

B, a 
B == B, , €= “2 

E 

B, n 


El planteamiento de esta solución implica 
que la sumatoria de 1 a n de los residuos al 
cuadrado debe ser minimizada, es decir que: 


n 


= YY, -B,-P,X1,-B,X2, PB, Xp.) =0 (3) 


i=l 


Entonces, diferenciando el lado derecho de 
la ecuación anterior con respecto a f,, B,, B,,-. 


B, por separado, se originan las ecuaciones 
llamadas normales, función de los parámetros 
desconocidos. En notación matricial, estas 
ecuaciones son: 


(-x)B=X'-Y (4) 
cuya solución es: 
B=(X"-x) "-(X-Y) (5) 


en la cual X” es la matriz transpuesta de X y 
(X'-X)* indica la matriz inversa de X”-X. 


Solución de mínimos cuadrados ponderados 


Como ya se indicó, las suposiciones que 
por lo común se establecen en relación con 
RLM (ecuación (2)) son que Ele) = 0 y que 
Var(e) = o?L, siendo I la matriz unitaria O 
identidad. Con frecuencia, tales premisas son 
irrazonables, pues se tiene que Var(s) = 0?-V, 
siendo V una matriz conocida de n x n. Si V es 
diagonal, con elementos diagonales distintos, 
las observaciones Y no están correlacionadas, 
pero tienen varianzas desiguales; en cambio, si 
existen algunos elementos fuera de la diagonal 
principal de V, las observaciones están correla- 
cionadas y la solución de mínimos cuadrados 
de los residuos es (Montgomery, Peck, € Vining, 
2002): 


p,=0-v"-x) (xo Y) (6) 


En la ecuación anterior, B, es el estimador de 
mínimos cuadrados generalizados (MCG) de f. 
Cuando V es una matriz diagonal, con elemen- 
tos 1/1,, 1/1w,... 1/w,, se hace W = V”, siendo 
W una matriz también diagonal con elementos 
que son los pesos o factores de ponderación (1, 
Wo». w,), la solución de mínimos cuadrados de 
los residuos será: 


A 


p,=(X'-W-X)"(X'-W-Y) (7) 
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en la cual B, es el estimador de mínimos cua- 
drados ponderados (MCP) de f. Conviene notar 
que los datos con varianzas grandes tienen me- 
nos peso que los de varianzas pequeñas (Mont- 
gomery et al., 2002). Los estimados $, se pueden 
obtener con facilidad modificando ligeramente 
el programa de cómputo de mínimos cuadrados 
ordinarios (MCO). Se multiplica cada uno de 
los datos o valores de la ¡-ésima observación, 
incluyendo el uno de la ordenada al origen por 
la raíz cuadrada del peso (w,) correspondiente 
a tales datos. Así, se obtendrán las siguientes 
matrices de datos transformados (Montgomery et 
al., 2002): 


1, X1, fio, CO Xp, y/o, 
g=| 1/0, Xi fio, +++ Xpalio, 


Y (10, 
z | Lao, 


Y .Jw 
n n 


Aplicando MCO a los datos transformados, 
se obtiene el estimador de mínimos cuadrados 
ponderados, que será: 


A 


p,=(B'B)"BZ=(X'WX) X"WX (8) 


Para usar la técnica de mínimos cuadrados 
ponderados se deben conocer los pesos w,. Con 
frecuencia se puede recurrir a la experiencia o 
conocimiento previo, a la información de un 
modelo teórico, o bien el análisis de los residuos 
puede indicar que la varianza de los errores 
puede ser una función de uno de los regresores; 
por ejemplo, si Var(e) = 0?-X1, entonces 1, = 1/ 
X1, Incluso, en aplicaciones prácticas, se pue- 
den suponer los pesos y hacer iteraciones para 
mejorar la regresión y/o minimizar algunos 
residuos (Montgomery et al., 2002). 
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Indicadores de calidad del ajuste 


Cuando se obtienen ecuaciones de RLM con 
mínimos cuadrados ponderados es necesario 
compararlas para escoger la de mejor ajuste, lo 
cual implica evaluar indicadores basados en los 
residuos. El más común de tales indicadores es 
el coeficiente de determinación (R?), que indica 
la proporción de la varianza de la variable de- 
pendiente que es explicada por la ecuación de 
regresión. Por ello su expresión es (Ryan, 1998): 


$7 id 


en la cual Y es el valor estimado de la variable 
dependiente con la ecuación de regresión y Y es 
su media aritmética observada. Cuando se usan 
los logaritmos de las variables, el R?no es confia- 
ble, pues los residuos se evalúan en el dominio 
logarítmico, como han señalado McCuen, Leahy 
y Johnson (1990). Por lo anterior, las ecuaciones 
de RLM que se analizan o contrastan se evalua- 
rán por medio de los tres índices de desempeño 
(ID) siguientes, calculados en el dominio real 
(Pandey éz Nguyen, 1999). DAM es la desviación 
absoluta media con las mismas unidades que Y; 


E Ny 1 (10) 


HEMPA 


DAM= 


siendo npa el número de parámetro de ajuste 
de la ecuación de RLM. EEM es el error estándar 
medio también con las unidades de Y; 


15 (y, | (11) 


Por último, EREM es el error relativo estándar 
medio, que es adimensional: 


n=npal Y (12) 
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Aplicación hidrológica 
Antecedentes 


Clarke (1994) presenta los datos de 23 estaciones 
hidrométricas ubicadas dentro del sistema del 
río Itajaí-Acú en Brasil, relativos al gasto máxi- 
mo medio anual (Oma, m*/s), áreas de cuenca 
(4, km?) y número de años de registro (NA). Los 
valores de Qma variaron de 31 a 3194 m*/s; los 
de A de 105 a 11 719 km, y los de NA de3a 
118 años. Realiza una regresión lineal del tipo 
Qma = b, + b,'A, cuyo coeficiente de determi- 
nación (R?) resultó de 0.828. Para mejorar la 
estimación, se emplea la regresión potencial 
Qma=b,:A”, cuyo R? resultó de 0.909. El aná- 
lisis de los residuos de esta última ecuación 
indica que los mayores errores corresponden 
a los datos que tienen las menores amplitudes 
de registro, por ello aplica la técnica de MCP 
utilizando w, = NA, obteniendo un R? de 0.935 
y observando que los residuos disminuyeron. 
La función de ponderado aplicada por Clarke 
(1994) es en realidad una versión bastante sim- 
plificada de la función óptima, como se deduce 
a continuación en su primer procedimiento de 
búsqueda. Este enfoque simple para la aplica- 
ción del ajuste de MCP también ha sido aplicado 
por Vogel, Wilson y Daly (1999). 


Primera aproximación 
Procedimiento que divide la varianza residual 


Tasker (1980) desarrolló un procedimiento 
para estimar la función de ponderado óptima 
w, = 1/0 Y), a utilizar en el ajuste por MCP. 
Partió de los resultados de Matalas y Gilroy 
(1968), que establecieron que la varianza de la 
variable dependiente (Y) se puede dividir en 
dos componentes: la primera originada por el 
error del modelo o*(9,) y la segunda debida al 
error de muestreo c”(e); es decir: 
o” (Y,)=0*(8,)+0*(e,) paratodai (13) 
El subíndice ¡ varía de uno al número de 
datos o valores de Y, y también es igual al 


número de estaciones hidrométricas (NE) o 
registros procesados en los análisis regionales. 
La condición de homocedasticidad requiere que 
tanto 0*(8,) como oe) sean independientes de 
1. En el procedimiento desarrollado por Tasker 
(1980), sólo se acepta la independencia del error 
del modelo. Para estimar la varianza del error 
de muestreo, se considera que las crecientes 
asociadas con un cierto periodo de retorno 
(Tr) siguen una distribución Pearson tipo III y 
entonces de acuerdo con Bobée (1973) se tiene: 


1+K - 5 Pa (14) 
pre q' 


en la cual o es la desviación estándar de los 
gastos máximos anuales; n, el número de 
gastos anuales observados en la estación hidro- 
métrica 1; y, el coeficiente de asimetría de los 
gastos máximos anuales, y Kp es la desviación 
estandarizada con distribución Pearson tipo III 
asociada con el valor de y y de la probabilidad 
de no excedencia p. Algunas veces K, se designa 
por K,,, pues Tr =1/(1 - p). En estudios hidro- 
lógicos regionales se puede aceptar que y y o? 
son aproximadamente constantes en todos los 
sitios de tal zona o región debido precisamente 
a la homogeneidad regional verificada previa- 
mente (Hosking éz Wallis, 1997) y entonces la 
varianza de Y, (ecuación 13) se expresa como 
(Tasker, 1980): 


o”(Y,)=c,+c,(1/n,) (15) 


siendo c, = 0A(9,) una constante y c, otra, que se 
logra estimar con base en la información regio- 
nal disponible, según la expresión: 


¿,=6*[1+K, -9+(K/2) (143771 4)] (16) 


en la cual ó, Y y K, son estimaciones regionales 
de las mismas variables descritas en la ecuación 
(14). La aproximación de la constante c, será, 
según la ecuación (15): 


¿,- 5 (1)-6 (1/1) (17) 
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en donde 0A(Y) es el cuadrado medio residual, 
cuya raíz cuadrada es el error estándar de la 
regresión obtenido usando MCO y 1 es la media 
aritmética de las amplitudes de registro en las 
estaciones hidrométricas que integran la región; 
9 Y) equivale al numerador de la ecuación (9) 
divido entre NE - np, siendo np el número de 
parámetros que se estiman en la regresión. 
Finalmente, la estimación de la función de pon- 
derado (í,) para el ajuste de MCP será: 


E (18) 


" 2,+0,(1/n,) 


siendo 1, el número de datos de cada registro 
procesado. Tasker (1980) indica que cuando el 
error debido al modelo es grande, (, tiende a ser 
mayor que é, y 1, se aproxima a un valor cons- 
tante para toda i, lo cual es el caso de ajuste de 
MCO. Para errores de modelo pequeños ocurre 
lo contrario y entonces 7, tiende a una relación 
directa con n, que es la función de ponderado 
apropiada cuando no existe error debido al 
modelo. Tasker y Stedinger (1986) exponen 
otra aplicación del procedimiento anterior para 
estimar el coeficiente de asimetría regional de la 
distribución Log-Pearson tipo III. 

Cuando se disponga de los datos anuales de 
cada variable dependiente (Y), el procedimien- 
to anterior puede ser mejorado, calculando la 
magnitud de la constante ¿ (ecuación (16)), con 
base en tales valores, de manera que el error 
de muestreo se estime para cada registro proce- 
sado. También se puede aplicar el equivalente 
de la ecuación (14) para adoptar otro modelo 
probabilístico, como los descritos en Kite (1977), 
Rao y Hamed (2000), o Asquith (2011). 


Aspectos operativos previos 


Para aplicar el procedimiento de Tasker (1980), 
descrito en las ecuaciones (13) a (18), primero se 
deben definir las expresiones de las estimacio- 
nes regionales 6, y y K, de la ecuación (16). De 
inicio se aclara que en la aplicación hidrológica 
que se describirá, relativa al gasto máximo me- 
dio anual (Qma), se tiene que el Tr es de dos 
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años y por tanto la probabilidad de excedencia 
es de 0.50 en tal evento; además, NE = 22 (ver 
cuadro 1). Como ya se indicó, n varía de 21 a 56 
datos, con 7 = 37. Para los valores de Qma, las 
expresiones de ú y y son: 


NE , Y? 
N[Qma, -Qma) 
o=|= (19) 
NE-1 


NES (Qma, -Qma) 


MOMO 20 
* (NE-1)-(NE-2):6* 200 
siendo: 
Sona, 
mi _ (21) 


Para la estimación del valor de K, se usará 
la aproximación polinomial obtenida por Bobée 
y Ashkar (1991) para los valores tabulados por 
Harter (1969), cuya expresión es: 


K,=b,+b, +0, +b, Y +b,Y (22) 


La ecuación anterior está limitada a ly] <4; 
algunos de los valores de los coeficientes b se 
tienen en el cuadro 1. Cuando el coeficiente de 
asimetría y es negativo, se aplica la siguiente 
igualdad: K,(y) = -K, ,(-y). Por ejemplo, para 
p = 99% y y =-1.5, se calcula K, para p = 1% y 
y = 1.5, que es -1.25611; por lo tanto, el valor 
buscado es 1.25611. 


Análisis de resultados 


Los datos que serán procesados se muestran 
en el cuadro 2 en sus primeras seis colum- 
nas; proceden de Campos-Aranda (2013), y 
corresponden a los valores del gasto máximo 
medio anual (Oma) o creciente media anual, 
así como de varias propiedades fisiográficas 
de 22 cuencas de las estaciones hidrométricas 
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Cuadro 1. Coeficientes b, de la ecuación (22), función de periodo de retorno (Tr) en años. 


Tr (años) b, b, b, b, b, 
2 -0.983388E-03 -0.158259E+00 -0.1373418-01 +0.949401E-02 -0.646736E-03 
5 +0.841362E+00 -0.469111E-01 -0.383029E-01 +0.863879E-03 +0.599519E-03 
10 +0.128142E+01 | +0.107660E+00 -0.474931E-01 -0.182259E-02 +0.646707E-03 
20 +0.164473E+01 | +0.284920E+00 -0.493567E-01 -0.420491E-02 +0.761456E-03 
50 +0.205352E+01 | +0.538133E+00 -0.427890E-01 -0.780118E-02 +0.985350E-03 
100 +0.232598E+01 | +0.738681E+00 -0.323114E-01 -0.110577E-01 +0.121961E-02 


de la Región Hidrológica 10 (Sinaloa), que no 
presentan régimen hidrológico modificado, las 
cuales fueron tomadas de Escalante-Sandoval 
y Reyes-Chávez (2002). La regresión del tipo 
Qma = b,: A” se obtuvo con el método de MCO, 
b,= 11.6751 y b, = 0.5258, y las estimaciones y 
residuales mostrados en las columnas 2 y 3 del 
cuadro 3. Este método condujo a un valor de R? 
de 0.813, con el resto de indicadores de ajuste 
mostrados al final de la citada columna 3 y un 
error estándar de ajuste de 309.8 m*/s. 

Para los datos de la columna 3 del cuadro 2 se 
obtiene que su coeficiente de asimetría es 2.0303, 
lo cual conduce a un valor de K, = -0.3104. 
Con base en estos valores y los citados anterior- 
mente, se obtuvo que c,=88 468.7 y c,=277787.1, 
ambos con unidades de varianza (m'/s?). Los 
correspondientes factores de ponderación 
(ecuación (18)) se muestran en la columna 7 del 
cuadro 2. 

El método de MCP aporta b, = 11.7339 y 
b, = 0.5251, con las estimaciones de Qma, los re- 
siduos y sus indicadores de desempeño (ID) que 
se tienen en las columnas 4 y 5 del cuadro 3. Se 
observa en la porción final de la columna 5 que 
los ID del método de MCP son casi iguales a los 
del ajuste de MCO. Este resultado se considera 
congruente, pues en esta aplicación numérica, 
las amplitudes de los registros procesados son 
semejantes (ver cuadro 2), variando de 21 a 56, 
con una media de 37 años. 

También se revisó la regresión potencial 
del tipo Qma=b,:A*-L?, cuyos resultados 
del ajuste de MCO fueron (Campos-Aranda, 
2013): b, = 11.7598, b, = 0.5334 y b, = 0.0148, 
con las estimaciones y residuos expuestos en las 
columnas 8 y 9 del cuadro 3; así como los ID 


mostrados al final de la columna 9. Empleando 
los resultados citados, el error estándar de ajuste 
resulta de 312.5 m*/s, pues ahora np = 3; con tal 
valor y los ya citados se obtuvieron c, = 94113.8 
y c, = 131 764.9, con los factores de ponderación 
(ecuación (18)), que se exponen en la columna 
8 del cuadro 2. El método de MCP conduce a 
b, = 1.7911, b, = 0.5334 y b, = -0.0153, con las 
estimaciones de Qma, los residuos y sus ID que 
se tienen en las columnas 10 y 11 del cuadro 3. 
Se observa al final de la columna 11 que dos ID 
del método de MCP aumentan con respecto a 
los del ajuste de MCO y sólo disminuye el error 
estándar medio. 


Segunda aproximación 
Procedimiento basado en datos cercanos 


Sugerido por Draper y Smith (1998), y por 
Montgomery et al. (2002), comienza por definir 
conjuntos de valores del regresor X1 que son 
“vecinos cercanos”, por tener observaciones con 
magnitudes semejantes de X1. El procedimiento 
supone que tales conjuntos pueden considerarse 
“puntos de repetición” y por lo tanto se puede 
usar la varianza promedio de sus respuestas 
(Y) para estimar la forma en que, de manera 
aproximada, cambia Var(Y) en función de X1. 

En la columna 9 del cuadro 2 se indica el 
renglón donde comienza cada conjunto de datos 
repetidos, el número de elementos que incluye 
entre paréntesis y el valor promedio de X], es 
decir, del área de cuenca (4). En la columna 
10 se indica la varianza muestral (promedio, 
aproximadamente) de las Y, de cada conjunto, 
estimada con la expresión siguiente: 
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N(Qma, -Qma) 


Var(Qma) == PE (23) 


Con base en las seis parejas de valores 
calculados de A y de Var(Qma) se realiza una 
regresión polinomial casi perfecta (R? > 0.9999) 
del tipo: 


Var(Qma)=a,+0,:A+a,:A?+a,: A +a,:A* (24) 


cona,=-2025.336, 4,=26.55365, a,=-1.122622E-02, 
a, = 1.481098E-06, a, = -4.118003E-11 y error 
estándar de la estimación de 9 315 m*/s. Con 
base en tal ecuación se obtuvieron los factores 
de ponderación (w,) mostrados en la columna 
11 del cuadro 2. 

Cuando se tienen dos o más regresores, 
resulta muy difícil la identificación visual de 
los datos que son vecinos cercanos y por ello se 
debe aplicar una técnica analítica para buscar 
pares de puntos cercanos entre sí en el espacio 
de Xp (Montgomery et al., 2002), o bien aplicar 
la ecuación (8), con la función de ponderado 
estimada con el primer regresor (X1), que es el 
más importante. 


Análisis de resultados 


Al aplicar la técnica de MCB, con la función de 
ponderado mostrada en la columna final del 
cuadro 2 y la regresión del tipo Qma = b, A”, se 
obtienen b,=7.7896 y b, =0.5784, con una ligera 
mejoría en el ajuste, pues ahora se tiene un R? 
de 0.824 y los valores del error disminuyen (ver 
EEM y EREM) al final de la columna 7 del cua- 
dro 3. Las estimaciones de Qma y sus residuos 
se tienen en las columnas 6 y 7 del citado cuadro 
3. Este ajuste reduce notablemente los residuos 
positivos de las estaciones hidrométricas Huites 
y Guatenipa Il, lo cual se ve reflejado en el valor 
del EEM. Lo anterior se puede observar al com- 
parar las figuras 1 y 2. 

Al aplicar la técnica de MCP a la segunda 
regresión potencial, se obtuvieron estos resul- 
tados: b, = 8.0767, b, = 0.6563 y b, = -0.1422. Las 


estimaciones y los residuos de este método se 
tienen en las dos columnas finales del cuadro 3. 
Los ID relacionados con el error muestran una 
mejoría de ajuste, como se observa al comparar 
los tres últimos renglones de las columnas 9 y 
13. Al igual que la ecuación potencial anterior, 
los residuos de las estaciones Huites y Guate- 
nipa 1I se reducen de modo sustancial y ello se 
aprecia en los ID del error. 


Conclusiones 


En los experimentos numéricos realizados por 
Tasker (1980) variaron: (1) el error del modelo 
de 0 a 100%; (2) la correlación entre estaciones 
tomó valores de 0.0, 0.4 y 0.8, y (3) la amplitud 
de los registros fluctuó de 10 a 50 años, con tres 
formas aleatorias de variación. Concluye, con 
base en la simulación numérica, que cuando 
se aplica la función de ponderado (w,) definida 
por la ecuación (18), en el método de mínimos 
cuadrados ponderados (MCP), la ecuación de 
regresión resultante siempre tiene mejores in- 
dicadores de desempeño (ecuaciones (9) a (12)), 
que la obtenida con mínimos cuadrados ordi- 
narios (MCO); excepto cuando n, no varía y/o 
existe correlación cruzada importante entre los 
eventos anuales de las variables dependientes. 
En este último caso, habrá que aplicar la técnica 
de mínimos cuadrados generalizados (Griffis dz 
Stedinger, 2007). 

Con base en la aplicación hidrológica des- 
crita, se pudo verificar que siempre alguno o 
varios de los indicadores de desempeño (ID) 
mostraron un mejor ajuste, es decir, se reduje- 
ron, al aplicar la técnica de MCP, en compara- 
ción con los ID obtenidos por MCO. Para el caso 
mostrado, en general los errores residuales se 
reducen más (se obtienen valores menores de 
los ID) con la segunda función de ponderado, 
la cual se obtiene con base en los datos cercanos. 

Por lo anterior, se recomienda revisar las 
ecuaciones potenciales obtenidas para estimar 
Qma, o bien Q,,, a través del ajuste de MCP, 
empleando al menos la primera función de 
ponderado descrita, pues la segunda requiere 
la ocurrencia de datos cercanos. Incluso en 
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Figura 1. Gráfica de residuales para el ajuste de MCO con la ecuación potencial Qma =b,A%. 
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Figura 2. Gráfica de residuales para el ajuste de MCP con la ecuación potencial Qma = b,A'1 y la función de ponderado basada 
en datos cercanos. 
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su versión simplificada, como la utilizó Clar- 
ke (1994) y Vogel et al. (1999), es decir, con 
w,= NA, podrá aportar una mejoría estadística, 
esto es, reducir los ID o cuando menos verificar 
la similitud numérica de resultados del ajuste. 
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